18+
25 Января 2023

Специалисты Яндекса научили нейросеть распознавать старые рукописи

Специалисты Яндекса научили нейросеть распознавать старые рукописи

Алгоритм на основе оптического распознавания символов учтет особенности почерка, буквы, утратившие актуальность, и разберется в структуре документов прошлых веков.

Нейросеть учили на сотнях тысяч рукописных строк текстов, датированных XVIII–XIX веками, а также нескольких миллионов сгенерированных примеров. Эксперты, контролировавшие качество распознания текстов нейросетью, предварительно размечали и расшифровывали их самостоятельно.

На одну страницу рукописей, датированных  XVIII– началом XX века, электронным «мозгам» требуется несколько секунд. Разработчики добавили фильтры по архивам, годам, описям и фондам. Построчная расшифровка нейросети Яндекса отображается рядом со сканом страницы.

Разработка поможет историкам, демографам, социологам и генеалогам, а также всем, кто ищет сведения о своих семьях. Первым в «Поиск по архивам» загрузили Главархив Москвы, на нем проходило обучение нейросети. Теперь в базу добавили документы из Оренбургской и Новгородской областей. Со временем число архивов и отсканированных документов будет расти.

изображение пресс-служба Яндекс

 

Аналитика